Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole

نویسنده

  • Stéphane Huet
چکیده

A way to improve outputs produced by automatic speech recognition (ASR) systems isto integrate additional linguistic knowledge. Our research in this eld focuses on two aspects:morpho-syntactic information and thematic adaptation.In the rst part, we propose a new mode of integration of parts of speech in a post-processingstage of speech decoding. To do this, we tag N-best sentence hypothesis lists with a morpho-syntactic tagger built to take into account the speci cities of transcriptions. We reorder theselists by modifying the score computed by an ASR system at the sentence level to includemorpho-syntactic information. Experiments done on French-speaking broadcast news (Estercorpus) exhibit a signi cant improvement of the word error rate. Besides, we establish thecontribution of morpho-syntactic information to improve posterior based con dence measures.In the second more exploratory part, we are interested in thematically adapting the lan-guage model (LM) of an ASR system. We propose a scheme that enables us to specialize speechdecoding in an unsupervised way. We rst segment the studied document into thematically ho-mogeneous sections. To this end, we develop a new probabilistic framework to integrate di erentmodalities (lexical cohesion, acoustic clues, and linguistic markers) and show its relevance toimprove segmentation. We then build adaptation corpora retrieved from the Web by using aninnovative procedure. We nally modify the LM with these speci c corpora and show that, onthematic sections that are manually selected, this method signi cantly improves the LM, evenif the increase of the word error rate is slight.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Découvrir les thèmes d'un document pour en améliorer la segmentation thématique

La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons ...

متن کامل

Continuous space models with neural networks in natural language processing. (Modèles neuronaux pour la modélisation statistique de la langue)

Les modèles de langage ont pour but de caractériser et d’évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale dans de nombreux cadres d’application comme la reconnaissance automatique de la parole, la traduction automatique, l’extraction et la recherche d’information. La modélisation actuellement état de l’art est la modélisation "historique" dite n-gramme associée à d...

متن کامل

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

L'alignement des documents médiévaux

RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, ...

متن کامل

Utilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents

RÉSUMÉ. Cet article présente FIDJI, un système de questions-réponses pour le français, combinant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi q...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007